2013/12/31

文件自動摘要

拜傳播科技日新月異之賜,現代人閱讀習慣已經明顯的改變。閱聽大眾期待的是簡短的、視覺化的刺激,Track Social 研究 Facebook 上留言長度與回應數的關係,顯示越短的內容有越多人回應。雖然我們不需要都站在憂國憂民的角度去憂心未來,但是這樣的變化背後有個潛在的技術需求:如何自動幫一篇文章做出摘要?

「自動摘要」(Automatic Summarization)的研究由來已久,方法大致分成三種:

  • 萃取式摘要(Extraction-based summarization):從文章裡摘取重點句,組成摘要。
  • 抽象式摘要(Abstraction-based summarization):分析文章中的抽象概念,進而生成摘要,由於涉及「自然語言生成」的步驟,技術難度較高,算是自動摘要的終極目標。
  • 輔助式摘要(Aided summarization):電腦輔助,然後由人工完成摘要,在實務上比較可行。

最近的一篇回顧式文章, A Survey of Text Summarization Techniques (Ani Nenkova, Kathleen McKeown, 2012),介紹了現階段「萃取式摘要」這個領域的發展,以及目前廣被使用的摘要系統的特色。這裡筆者簡單的摘譯目前實作上的流程。

文件自動摘要的流程,大致上可以分為三個步驟:

1. 產生中介表徵(Intermediate representation)
電腦並不會真的像人一樣看懂字句(譯按:話說回來,人也不見得真的看得懂),所以把字句轉換成一些抽象的指標,像是「與某主題的相關性」、詞頻、TF.IDF、關鍵詞的共生性(coocurrence)、概念相關性等等。採用哪些指標,跟系統架構背後的語言學模型有關。

2. 為句子評分(Score sentences)利用中介表徵來為文章裡的每個句子評分,評分的方式也跟系統架構背後的語言學模型有關。

3. 由句子產生摘要(Select summary sentences)
每個句子有了分數之後,摘要系統最後必須從所有句子當中選出適當的組合,當做文件的摘要。

每個步驟都有相當多的細節,尤其是數十年來語言模型(language model)也持續推陳出新,也難在有限的篇幅裡說清楚,所以我們就在此就暫且打住。


雖然說學術理論有很多講究,但是其實很多 RSS feed 產生器就只是簡單的摘取文章最前面的若干字,實際上讀起來效果也是不錯的。有的時候,太去細究「為什麼」,結果反而變成過度詮釋,落入下乘。世界上很多事情,不見得有「為什麼」的。


2013/12/29

「父母」是企業招募千禧世代的秘密武器!?

[原文]Parents Ma Beour Secret Weapon For Recruiting and Retaining Millennials

雖然人資不是筆者的專長,不過這個現象蠻有趣的。

之前看到一篇文章,說有間外商來台設分公司徵人,應徵錄取者很多最後沒來上班,理由是「父母說沒聽過這間公司,不贊成我來」。於是這間公司的負責人針對「父母」設計了一套文宣,讓錄取者可以很快的讓父母了解這家公司在美國是已經相當有規模的公司,之後果然錄取者到職率大幅提昇。

這情況發生在華人社會是相當可以理解的,但是昨天看到這篇 HBR 的文章,講的是美國 Fortune top 10 的公司遭遇的情形,就有點匪夷所思了。難道是說西方的千禧世代跟家庭的連結也變得很強嗎?

總之,Karie Willyerd 提供了五點心法:

  1. 在新進員工訓練時邀請父母一起參加。
  2. 提供父母免費訓練,然後讓他們教給自己的孩子。
  3. 舉辦「帶父母上班」日。
  4. 面試時也跟父母談,然後在招募文宣裡也提供「父母的證詞」。
  5. 企業溝通策略中也把父母包含進去。
希望未來不是「媽寶媽寶滿天下」的世界。

2013/12/26

身後59年,Turing 終獲平反

這應該算是今年聖誕假期蠻受討論的新聞之一,尤其是資訊科技界。或許一般人比較不知道 Turing 是誰,以下是關於他簡短的介紹,以及「平反」所謂何來。

艾倫·圖靈Alan Turing) ,英國數學家、邏輯學家,也被視為電腦科學之父。

圖靈對於人工智慧的發展有非常重要的貢獻,他曾寫過一篇名為《機器會思考嗎?》(Can Machines Think?)的論文,其中提出了一種用於判定機器是否具有智慧的試驗方法,即圖靈測試(Turing Test)。時至今日,每年都還有 Turing Test 的比賽。此外,圖靈提出的著名的圖靈機模型(Turing Machine),為現代電腦的邏輯工作方式奠定了基礎。

圖靈獎(Turing Award),是計算機協會(ACM)於1966年設立的,專門獎勵那些對電腦科學領域作出重要貢獻的個人,而這個獎設立目的之一便是紀念這位現代電腦、計算機的奠基者。圖靈獎是計算機界最負盛名的獎項,獲獎者必須是在該領域具有持久而重大的貢獻,也有「計算機界諾貝爾獎」之稱。

圖靈是著名的男同性戀者之一,並因為其性傾向而遭到當時的英國政府迫害,職業生涯盡毀。英國警方將他控以「明顯的猥褻和性顛倒行為」罪名,他沒有申辯,終被定罪。在公審後,他被給予了兩個選擇:坐牢或女性荷爾蒙(雌激素)注射「療法」(即化學閹割)。他最後選擇了雌激素注射。

1954年,圖靈因食用浸過氰化物溶液的蘋果死亡。很多人相信他的死是有意的,並判決他的死是自殺。

蘋果公司的商標有時會被誤認為是源於圖靈自殺時咬下的半個蘋果,但該圖案的設計師和蘋果公司都否認了這一說法。而公司創辦人史蒂夫·賈伯斯在接受英國廣播公司(BBC)電視節目《QI》時被主持人史蒂芬·弗萊問到此事時說:「這件事(LOGO向圖靈致敬)不是真的,但是,上帝啊,我們希望它是真的。」("It isn't true, but God, we wish it were.")

在2009年9月10日,一份超過3萬人的請願簽名,使英國首相戈登·布朗在《每日電訊報》撰文,因為英國政府當年以同性戀相關罪名起訴圖靈並定罪,導致他自殺身亡,正式向艾倫·圖靈公開道歉。

至2012年,有21000多人簽名請願,要求英國政府追贈圖靈死後赦免狀,但被當局拒絕。英國上議院的McNally勛爵解釋說,死後赦免狀是不合適的,因為圖靈是根據當時的法律被定罪。

2013年12月24日,英國司法部長宣布英國女王伊莉莎白二世赦免這位上世紀50年代因同性戀行為被定罪的英國著名數學家、密碼學家、電腦科學之父。

雖然「死後平反」對逝者毫無實惠之處(其實生前平反好像也是),但是某種程度上表現出社會集體價值觀的變遷,昭示著在我們的這個年代,那些敢做出與主流價值不符的選擇的人,能受到更多的包容,也有更多揮灑的空間。


[Turing 的傳記電影]

Breaking the Code (TV Movie 1996) - IMDb






2013/12/23

電擊你的腦:危險瘋狂的科學實驗?

近來關於顱外微量電擊的研究還不少。

2008 年,德國學者發現在頭顱外部施予隨機的微量電擊可以增進腦部活動,一群英國人用這個概念嘗試了一系列實驗,發現可以提高數學成績,今年發表在學術期刊上。


Transcranial Stimulation 

This is an image of a different type of transcranial stimulation than the type researchers studied below. The transcranial random noise stimulation study below required headgear that was about as involved as this.


上星期的自然(Nature)也刊登了一篇文章,說電擊治療可以消除不好的記憶,就像電影 "Eternal Sunshine of the Spotless Mind裡演的一樣。

於是筆者查了一下有沒有相關的器材,的確找到了一系列 DIY tDCS 的文章。當中比較驚悚的,是一位勇敢的美國高中生,依照網路上的「廉價 tDCS 設計」製作,然後拿自己做實驗。一開始還把電擊放錯邊,造成情緒低落、成績下降,可是他還是勇敢的繼續嘗試到底電哪裡成績才會提高,真的是勇氣可嘉。

下面是他介紹自己實驗的影片:



所幸有研究指出,這類電擊造成的效果都是暫時性的,所以即使接錯邊,也還不致於造成永久的傷害。


2013/12/22

[摘譯]從統計的觀點看「快思慢想」這本書

[原文] A statistical review of 'Thinking, Fast and Slow' by Daniel Kahneman - Burns Statistics

[譯按]
雖然最近對於這本書的中譯本有不少的討論,不過這篇書評講的是英文版的原著,所以並不屬於論戰的一部分。這篇文章是一個統計學家對這本書跟統計有關的部份的評論,筆者只摘譯其中的部份。

[摘譯]
作者 Daniel Kahnenman 說,他跟 Amos Tversky 合作的一系列研究(也就是 Kahnenman 得到2002年諾貝爾經濟學講的研究,當時 Tversky 已經逝世),最初的問題是:「人若全憑直覺,會是好的統計學家嗎?」(Are humans good intuitive statisticians?)

答案是「不是」。

因為我們的腦是設計用來「生存」的,而不是用來尋求真理的。
我們的心智其實是非常卓越的,因為我們很少被難倒。...我們常常能回答我們不完全了解的問題,而根據的往往是我們無法解釋或自圓其說的證據。
書中有很多的篇幅在描述我們思考的兩種系統:

  • 系統一是不費力的,快速的,捷徑式的,無意識的。
  • 系統二是費工夫的,比較慢的,有時候會依循邏輯的。

如果要講「統計直覺」,「直覺」應該是系統一,但是「統計」常常是跟事實表象不符的,也就是跟直覺相反的。所以我們如果憑直覺,從來不會是好的統計學家。

系統一會讓我們捕風捉影,過度推論。如果從生存的角度來看,以為看見一隻不存在的老虎,頂多被笑大驚小怪,但如果沒看到一隻存在的老虎,那可就要人命了。


貝氏推論(Bayesian Reasoning)其實可以用兩個原則來描述:
  • 先根據一個約略的機率來做判斷
  • 質疑所觀察到證據的可靠性,修正前面的機率
但其實人根本不會這樣做,反而比較常出現的是「理論造成的盲點」:一旦你接受了某個理論(或觀點),你會自動忽視這個理論的瑕疵,以及任何相違背的證據。


最後,還有一段小影片,說明人類思考常常不合邏輯之處。

2013/12/21

[摘譯] 2014 年 Big Data 產業的趨勢預測

[原文] Big Data 2014: Powering Up the Curve

[摘譯]
1. Big Data 的在商用領域成長將會聚焦在「混合式資料」的分析上,用多元性的資料來更全面的勾勒顧客的樣貌。

2. Big Data 傳統上是屬於企業資訊部門的工作範疇:資料庫管理,但是實際的應用卻在企業的各個層面,因此更需要「跟其他人好好相處」。

3. 講到 Big Data,多數人可能第一個想到的術語就是 Hadoop,其實目前有很多開源社群的專案都是 Big Data 技術的基石,2014年我們可以看到開源社群會有更多的創新。

4. 把 Big Data 作為一個儲存的平台,目的就是為了未來的「分析」做準備,而未來的分析工具絕對不會跟現在的一樣,我們也可以期待更多分析工具的創新。

2013/12/16

SlideSahre #Zeitgeist2013

SlideShare是一個投影片和文件檔的分享網站,用戶可以上傳自己的文件並展示出來。
該網站在2006年10月4日推出。2012年5月4日,職業社交網站LinkedIn斥資1.19億美元將其收購。

日前 SlideShare 公布了 #Zeitgeist2013,顯示了大眾對「簡報」方式跟主題的喜好(Zeitgeist 是德文字,意思是「某段時間的代表精神」,常翻譯作「時代精神」,跟「年度代表字」的意思很像,但是是用「一種想法」來表達,這幾年已經普遍的使用在各種主流媒體上)

[摘要]
1. 人們想要「短」的,「視覺化」的內容
2. 最多人看的是「趨勢報告」型跟教育類的簡報
3. 最多人討論的話題:汽車跟管理
4.新趨勢:
-- 行動化(大家在手機上看)
-- 社群媒體帶來高流量
-- 墨西哥、巴西、美國持續是最佳觀眾
-- 印尼跟愛爾蘭成長最快
-- 上傳貢獻最多的國家:美國,印度,西班牙



2013/12/15

[摘譯]英文好的國家經濟表現比較好


[原文]Countries with Better English Have Better Economies - Christopher McCormick - Harvard Business Review

[摘譯]
研究發現,一個國家平均的英文能力越好(EF English Proficiency Index, EF EPI),經濟表現就越好(GNI, GDP);即便是在個人層次,良好的英文能力也可以讓所得比國家平均高30%~50%。

除了經濟表現,英文能力與生活品質的相關性也很高,下圖是EF EPI 分數與「人類發展指數」(Human Development Index)的分布圖。


對商業領袖來說,這樣的研究結果,提醒了我們在思考全球策略布局時可以考慮的幾件事:

  • 哪些國家最積極的在增進英文能力,以期能吸引跨國企業?
  • 哪些新興市場會因為英文能力欠佳而影響發展機會?
  • 我的招募策略應該聚焦在哪些國家?
  • 如果考慮要向海外擴張,哪些國家對我的(以英語為母語的)外派員工適應阻力最小?


[譯按]
從小就被教育要「學好英文」,不知道什麼時候上面的「英文」可以換成「中文」?



2013/12/13

Google 的 deep learning 系統與自動化的未來

日前的一篇報導「能自行總結出「貓」這個概念的深度學習系統」,簡單的介紹了 Google 在做的 deep learning 系統,可以「不必人去教電腦,電腦就可以自行產生概念」。

人工智慧(Artificial Intelligence, AI)這個研究領域,大概在有電腦之前就存在了。早期一直是「規則」( rule-based,或者「演算法」 algorithm)的思維,認為所謂的「知識」,是一大堆「如果─就─」規則的組合,而這些規則需要人的智慧來發掘,然後教給電腦。

一直到了80年代末期,基於「統計」的機器學習(machine learning)想法才慢慢浮上檯面。如果去問一些資深學者,還有很多人會振振有詞的說「機器學習不是演算法!」,因為在這個架構下,規則是電腦自己從資料裡去學的,人做的是「準備資料」跟「設計讓電腦怎麼學」,感覺上人的不可取代性就降低了。然而在實務應用上的成功,讓機器學習普遍的運用在各種領域,語音辨識、影像辨識、機器翻譯...,巨資料的商業化應用,背後很大的成份,分析,也是要倚賴機器學習。

Google 算是把機器學習商業化最成功的公司,這個領域的最前線大概也是靠他們推動了。

或許有人會問,Google 做這個要幹嘛?

如果我們想像的未來當中,包括能夠自動幫我們整理東西的電子產品,那麼 deep learning 就是不可或缺的基礎元件:電腦學會了自行分類、形成概念,那麼你上傳到 Picasa (或是你的 Android 手機自動備份到 Google+)的照片,以後就會依照主題自動整理好,而不必有任何人去看你的照片內容。

然後呢,電腦會慢慢的「理解」你的狀態和習性,context aware computing 在 convenience 跟 creepy 之間的界線會越來越模糊。

[摘譯] 了解中國消費者

[原文] Understanding Chinese Consumers
[摘譯]
  1. 對價格敏感,有品牌意識。
  2. 中國普遍缺乏信任。
  3. 一胎化讓「孩子」成為消費要角。
  4. 中國消費者在轉變:握有更多資訊,思考更細密,更積極。

2013/11/22

閃亮的快樂神經元


杏仁核amygdala )圖片裡發亮的兩個區塊,大約在從眼睛跟耳朵個劃一條直線的交接處)是大腦裡跟各種情緒的產生與控制有關的區域,最近的研究發現,這個區域的某部分神經,跟「從別人的表情判斷情緒」有關,而且判斷「快樂」跟「恐懼」是由不同的神經元負責。

這個發現在神經科學上的意義就不多說了,有興趣自己去看論文。我只是在想,如果說現代人語言表達能力下降、情緒判讀能力下降,會不會是吃那些化學合成物造成的腦部發育改變?

「蛤?」是世界通用的語言


荷蘭的語言學家 Mark Dingemanse 等人,試圖尋找有哪些詞彙是跨語言通用的,發現 "huh?"(蛤?)在各種語言裡都是用來表示「我剛剛沒聽清楚你說什麼」的語助詞。

2013/11/19

[摘譯] 早起有德性,下午不誠實

圖:medicaldaily.com
[原文] Moral in the Morning, But Dishonest in the Afternoon

[摘譯]
根據一篇刊登在2013年11月號「心理科學」(Psychological Science)的研究指出,人「避免說謊或作弊」的自制能力,會隨著一天的時間進展逐漸下降,導致我們在下午的時候比較容易有不誠實的行為。

研究分成上午跟下午兩個時段進行,分別有「欺瞞會獲得比較高的利益」和「填字」等活動,發現上午場的受試者除了比較不會「見利忘義」之外,填字時也比較會聯想到跟道德有關的字詞,而下午場的表現就相對令人失望多了。

研究也發現,人對於不道德行為的「罪惡感」,上午也比下午強烈;而道德感越是強烈的人,上下午的反差也越大。

原作者認為這些研究發現可以運用在組織稽核與防弊的制度設計上。

[譯按]
如果道德行為是來至於「抑制」的能力,那麼似乎就表示人原本是傾向於做不道德的事情的了。不過許多的腦科學研究都指出,越是後期發展的腦區域(大腦皮質,相對於邊緣系統和腦幹),功能越是表現在「抑制」某些本能行為上,表示人之異於禽獸的「幾希」,大部分是在於「有所不為」了。

2013/11/18

[摘譯]大人玩 Pokemon 可以學到的二三事

[原文] What Playing Pokemon Can Teach Adults—No, Really!

[摘譯]
神奇寶貝(Pokemon)系列遊戲,在元產國以及世界各地,可算是有史以來最受歡迎的電玩遊戲之一。今年10月12日發售的系列新作 Pokemon X and Y,在三天內就賣出四百萬套,其系列作品在「有史以來銷售最佳的25個遊戲」裡就佔了5個席次,其受歡迎程度可見一斑。

這樣的銷售量絕不僅僅來自於孩子們的聖誕禮物,那麼大人們為什麼會喜歡「這種東西」呢?

如果仔細的分析這類遊戲,其實我們可以發現除了「可愛」和「簡單」之外,底層還有很深的架構可以讓成年人學到不少事的。例如:

1. 策略:剪刀、石頭、布的屬性相剋
Pokemon 的規則簡單,但是屬性的系統相當複雜,不僅僅是「剪刀、石頭、布」三種,除了十多種屬性之外,相剋的程度還有不同的等級,更增添了策略的複雜度。



2. 經濟學:像華爾街,不過可愛得多
Pokemon X 內建有個「Global Trade Station (GTS)」(全球交換站),讓所有的玩家可以在上面交易遊戲中所收集到的神奇寶貝,基本上跟證券交易所是一樣的。

3. 統計:歡迎來到數字的樂園
收集 pokemon,如何選擇六名成員在屬性生剋下有最佳的表現,神奇寶貝的育種,無一不是神奇的數字遊戲。

4. 快樂:空想與無條件的正向關懷
相較於「俠盜獵車手」(Grand Theft Auto)的黑暗與犯罪,這款遊戲恰好是完全相反:一個快樂而沒有煩惱的世界!

5. 耐心:神經質的收集狂快來集合!
你是那種像我一樣,會在履歷上寫「專注細節,近乎苛求」的人嗎?Pokemon 是完美主義者的夢,快來收集吧!

表面上看來,這個系列的遊戲僅僅是收集可愛的小東西,但骨子裡卻包含了錯綜複雜的統計分析,深度的策略,和正向心理學。或許這些才是這個系列遊戲歷久不衰的原因。

[譯按]
原文作者看似是第一次玩 Pokemon 系列遊戲(雖然從第一款至今已經有12年歷史了),對此讚不絕口。其實很多經典的角色扮演(RPG)或策略遊戲(SLG)都有類似的性質,才會讓玩家廢寢忘餐的盯著螢幕。筆者很久沒玩遊戲了,Diablo III 買了一年多,連塑膠套都還沒拆開,不過看到這篇文章倒是勾起許多小時候的回憶。




2013/11/06

[Data Analytics] 巨資料就像是青少年在談「性」,嗎?

前幾天在網路上廣為流傳的一張圖,是 Dan Ariely 對 Big Data 的評論,說的是:
巨資料就像是青少年在談「性」這檔子事:每個人都在說這件事,沒有人真的知道是怎麼回事,每個人都覺得別人都在做,所以每個人都宣稱自己很懂...
這段話,如果一直以來有在關注巨資料發展的話,大概都會會心一笑。

嚴格說來,Big Data 不是真的沒人懂,而是因為巨資料是個很新的議題,它不只包含資料儲存的技術,也有資料分析的方法,還有應用服務的層面,更有商業模式的部份。這些不同的面向,定義都還在不斷具體化的過程之中,大部分的組織懂得的是其中的某些元素,當然也無法避免有混水摸魚的人在一片混亂之中趁機撈點好處。

其實,把 "big data" 換成 "user experience",或是在早幾年前換成「雲端」,Dan Ariely 的話似乎都還是可以成立的。

還在被定義中的新議題,人人都會想表示自己懂,好在塵埃落定之前能佔有一席之地,這是新市場特有的「機會財」,本也無可厚非,只是對之前已經耕耘一段時間的人來說,多少會有點倒胃口而已。

所以,好像也不必那麼酸,該做的事情好好做,不要只跟著熱們話題起舞也就是了。

2013/10/21

行為干預科技(Behavioral Intervention Technologies, BIT)

行為干預(Behavioral Intervention)是心理治療使用的療法之一,源自於行為學派,通常和行為矯正有關,像是焦慮恐懼,或是戒除成癮的行為。

隨著時代的改變和科技的進展,行為干預的應用也逐漸拓展到認知療法的領域,例如行動電話的普及,就讓憂鬱症和創傷後心理壓力緊張症候群PostTraumatic Stress Disorder, PTSD)的追蹤與治療有了新的方式。雖然具體施行方式與效果還有待時間的驗證,但前期的實驗都還蠻樂觀的。

美國的西北大學在2011年成立了「行為干預科技中心」(Center for Behavioral Intervention Technologies),希望把新科技對健康行為的影響更進一步擴大到整個醫療看護,甚至是居家保健的領域。以「行動干預」(mobile intervention)為例,該中心就已經試行在精神分裂症憂鬱症、創傷後心理壓力緊張症候群器官移植術後追蹤黑色素瘤自我檢查等等臨床案例上。

國內其實也有這類的臨床技術研發,像是台大心理系跟台大資工系就有合作在壓力調適上的研究,著重的是將行動裝置當做可以隨時記錄使用者行為的方法(Experience Sampling Method, ESM)。

筆者去年也跟醫學院的教授合作,開發針對腦震盪病患診後追蹤的行動應用,後續也希望能繼續修正功能,擴展到 ESM 和 BIT 的領域。

當今,電子裝置的發展走向穿戴式,自我量化(Quantified Self)蔚為風潮,巨資料技術蓬勃發展,幸福感(well-being)的追求成為主流價值,針對日常生活的行為干預技術,看來會是接下來幾年一個重要的整合應用領域。


2013/09/29

[摘譯] 麥肯錫 2013 Q3 全球經濟剪影

原文
Economic Conditions Snapshot, September 2013: McKinsey Global Survey results

摘要

  • 全球經理人對景氣持續樂觀
  • 成長焦點由新興市場移往已開發國家
  • 不確定性逐漸消除,對歐元區的成長最樂觀
  • 新興市場的三大風險:失業率、通膨、匯率
  • 消費需求疲弱為全球最大風險,區域衝突與政治不穩的疑慮逐漸淡化


[摘譯] 利用靈活物件產生原創解答:flexons

原文出處:McKinsey Five routes to more innovative problem solving

開放式創新」(Open Innovation)結合了「開放」、「社群」、「群眾外包」等等新潮的概念,儼然成為創新方法典範,之前在談 Innocentive 的文章裡也簡單的介紹過。這篇麥肯錫季刊的文章,利用 flexons 這個新詞(產生新解決方案的彈性物件,flexible objects for generating novel solutions,暫且翻成「彈性子」好了),介紹了開放式創新在執行面上的一些分析和建議。

文中定義了五種 flexon,分別是:
  • 網絡(Network flexon):將複雜的問題分解成若干元素,然後依據元素之間的關聯性,將整個問題以網絡的方式呈現,可以讓我們更容易優化決策流程。這個網絡可以是採購主的人際關係、交通系統的節點,或是其他複雜的問題。
  • 演化(Evolutionary flexon)演化算法evolutionary computation)已經在很多複雜的優化問題上被證實是非常有效率的方式。我們常常需要在有限的資源下,做不同策略的嘗試,演化算法的概念可以幫助我們更快、更有效率的進行這樣的活動。(以前介紹過演化算法,所以不多寫了)
  • 決策代理(Decision-agent flexon):博奕理論(Game Theory)假設人的社會行為是每個人在互動中追求自己最大利益的結果。而「決策代理」基本上就是把這樣的邏輯應用在創新策略上,分析各個競爭與合作對象之間的互動,找出平衡下的適當決策。當然,我們不必假設每個人都是理性的在「最大化自己的利益」,也可以再加入慾望、情緒等左右決策的因素,讓這個「代理人」的決策行為更能代表議題所牽涉的利害關係人。
  • 系統動力(System-dynamic flexon):分析一個商業決策,在整個複雜商業環境中,會激發出什麼深遠的影響,一向都是很大的挑戰。如果把商業環境看成一個系統,把資金、原物料、產品、資訊類比作能量、熱、電磁波、電流,則可以由這些元素的流動過程分析彼此之間的因果關係。
  • 資訊處理(Information-processing flexon):把商業環境當作資訊處理架構來分析,可以看出哪些環節造成最大的成本、哪些資訊被反覆的利用,讓我們可以快速的找到直接影響決策效率的焦點。
[譯按]
作者介紹的五種 flexon,其實是借用五種不同領域分析問題的架構,來看待商業問題,原文中並舉了兩個例子(創新重組跟預測未來),解釋在實際情境中如何使用 flexon。


2013/09/27

[Data Analytics] 資料科學家們的各種樣貌

[原文] There's More Than One Kind of Data Scientist

[譯按]
這篇文章是介紹 O'Reilly Media 的免費小書:分析者的分析:關於資料科學家與他們的工作的內省(Analyzing the Analyzers: An Introspective Survey of Data Scientists and their Work)。本來想等沒什麼人在談 Big Data 再來翻這篇的,不過可能最近聽巨資料聽到有點麻痺了,加上這本書講的是「反省」,所以還是簡單介紹一下好了。

[摘譯]
這是一本「用資料科學來研究資料科學家」的書。我跟另外兩位作者,這些年來組織了相當多關於統計與分析專業人士的聚會,在過程中認識了很多人,這些人有著截然不同的教育背景、工作經驗、性向和態度,可是為什麼這些人都稱自己是「資料科學家」呢?

我們相信,這是因為很多人對於現有的職業分類裡,關於他們所扮演的角色、所做的工作內容,都沒辦法有另他們滿意的描述或稱謂,所以才有了「資料科學家」這個新的職稱、新的職涯。

我們在2012年初,發覺了這個嶄新的職業類別,也就很自然的用資料科學的方式,對這些人做了分析。我們發現,這群逐漸成形的「資料科學家」們大致上可以分成幾個類別:

  • 資料商業家(Data Businesspeople)是一群產品、獲利導向的資料科學家。他們是有技術背景的領袖、經理人、創業家,學歷通常是理工背景加上 MBA。
  • 資料創意家(Data Creatives)是電子萬事通,有能力處理形形色色的資料,使用各式各樣的工具。他們可能認為自己是藝術家或駭客,對於視覺化和各種開源軟體都很有一套。
  • 資料開發者(Data Developer)專注於開發實際在線上運作的軟體,用於處理統計、分析、或機器學習的問題。這些人通常都有電腦科學的學位,並且從事與「巨資料」有關的工作。
  • 資料研究員(Data Researcher)有較深的學術背景,受過科學訓練,並且將他們所會的工具和技術應用在組織的資料上。他們通常有博士學位,而他們用數學工具發揮的創意運用,通常可以帶來珍貴的洞見或產品。

如果把資料科學的知識領域分成五種:商業、機器學習/巨資料、數學/作業研究、程式設計,和統計,上述的四種資料科學家在這五大知識領域的熟悉度可以用下圖表示:

更多的內容,請見全文




2013/09/11

[Data Analytics] 巨資料的市場有多大?沒人知道

原文:Sizing The Big Data Market: No One Has A Clue – ReadWrite

[摘譯]
讓我們忘了那些關於巨資料(Big Data)的數據吧。真正的事實,是沒有人知道巨資料的商業市場表現,因為很少人真的知道到底什麼是巨資料。

Gartner 的副總 Ian Bertram 指出,50%的企業認為他們在巨資料議題上所遭遇的問題在於異質資料的統整 (variety),而非大量的資料 (volume) ([譯按] 巨資料有所謂的 3V:「多樣性」 variety,「大量」 volume,以及「速度」 velocity。),所以「巨」顯然不是個真議題。

Marketo 的 Jon Miller 說:「所謂的『巨資料』,是一個概略性的詞彙,意指一種極度大量、極度複雜的資料,超出了 1980 年代以來關聯式資料庫所能處理的範圍,所以亟需新的處理方式。」既然是一個「概略性的詞彙」,那我們怎麼能界定一個新的應用是不是屬於「巨資料」的範疇?

所以 Wikibon 嘗試估算巨資料產業的規模,我們就權且辜妄聽之吧。

我在想,會不會我們在說「巨資料」的時候,說的其實只是「資料」?我們所謂的「巨」並沒有實質的意義,只是我們可以把「比以前更多」的資料拿來發揮作用而已。

Ian Bertram 應該跟我所見略同,他說:
我很想問,為什麼要叫做「巨資料」?它到底「巨」在哪裡?為什麼不乾脆叫做「資料」或「資訊」?反正我們說的僅僅是從不同的資料來源抽取數據然後統整在一起,或許加上尋找特定型態,建立模型,指出風險,理解人的意圖與情感,建立網絡,這些事情而已。
換句話說,我們做的事情跟從前毫無差別:「讓資料發揮作用」,差別只是把工具換成 Hadoop 和 NoSQL,讓我們可以更有效率的做更多事情。

[譯按]
我喜歡這篇文章的副標題:
Big Data is a meaningless term that attempts to describe what we've spent years doing: putting data to work.
「巨資料只是一個無意義的字眼,試圖描述我們過去一直在做的事情:『讓資料發揮作用』」

前陣子在朋友轉貼的 Big Data 相關文章上回應:「Big Data 到現在已經成了行銷字眼,跟它起鬨你就紅了,跟它認真你就輸了」,大概也是差不多的意思。君不見我這兒正是在跟著Big Data 起鬨嗎?XD

2013/08/31

Brene Brown: 脆弱的力量


前幾天朋友重新分享了 Brene Brown 在 TED.com 的演講,「脆弱的力量」(Brene Brown: 脆弱的力量 | Video on TED.com)。Brene 是社工博士,從事了十多年的社會工作,看過許多人的苦難,而他的心得是:
我將我訪問過的人分為兩組:一組是認為自己有價值的人,這些人有很強的愛與歸屬感;另一組是掙扎的人,他們總是懷疑著「自己是否夠好?」
兩組人之間,只有一個可變因素:這就是,那些有強烈愛與歸屬感的人,相信他們自己是值得愛與歸屬的,除此無他。

這些人有什麼共同點? 我的研究結果是這樣的。
他們共有的是勇氣(courage)。我想簡單解釋勇氣(courage)與勇敢(bravery)的不同。勇氣最初的定義,是拉丁字源cor,表示"心(heart)"。而它最初的定義,就是全心全意講述關於你自己的故事。這些人,有著承認不完美的勇氣,他們有同情心,對自己好,然後對別人好。
他們願意放下他們想成為的自己,為了做真正的自己。

他們的另一個共通點,是他們坦蕩的接受脆弱。他們相信「讓他們脆弱的,會讓他們美麗」。他們並不覺得脆弱是很自在的事,然而也不是很痛心的事。他們認為脆弱是必須的。他們談到願意先說 「我愛你」;願意去做那些不保證美好的事;願意在乳房X光檢查後深呼吸,等待醫生回電;願意投入一場戀愛,不論結果好不好。
能夠絕處逢生的,通常不是剽悍的硬撐,尤其是如果要從苦難中汲取力量的話。

[摘譯]牛津辭典收錄新詞:"Badassery","Selfie","Twerk", 及其他

Source: Dictionary Adds ‘Badassery’, ‘Selfie’ and ‘Twerk’ | TIME.com

牛津辭典線上版在 2013-08-28 發表了 65 個新的詞,包含了形容80 年代復古風、新的電子裝置,到曖昧的新舞步。

近年來很多新詞都跟過度倚賴科技的生活息息相關,像是 click and collect, digital detox, emoji, supercutphablet等等。

無論你喜歡不喜歡,這些新詞反映了我們時下的文化。以下是其中幾個新詞的介紹:
badassery (n.)
名詞。一種極度強悍或引人注目的行為、人格特徵、或者行動。例如:Seal Team 6,從鯊魚口中拯救受害者,或者 Samuel Jackson 在電影裡做的大部分事情。bad-ass 一般是指「剽悍的傢伙」, 大概跟台灣這幾年流行說一個人「很 men」有點類似,badassery 是把這樣人所表現的行為或特質。
buzzworthy (adj.)
形容詞。形容一件事情很有可能會變得很火紅。buzzword 是「流行語」,把字尾改成worthy,形容這件事很有成為流行語的潛力,大概就是這個意思了。
food baby (n.): 
因為吃得太多,小腹凸起,而讓人看起來誤以為是懷孕了。中文也有這樣的情況,只是想不出有什麼對應的專用詞。
jorts (n.): 
牛仔短褲,80年代的流行,有圖有真相
omnishambles (n.)
描述一種徹底失控的情況,特色是由一連串的愚蠢行為和失算組成,出自英國 BBC 的政治模仿秀 The Thick of It。想不出有什麼對應的中文詞。
selfie (n.): 
自拍,通常以手機或視訊鏡頭拍攝,然後上傳到社群網站上。這個應該完全不用解釋了吧?
twerk (v.): 
一種充滿性暗示的舞步。特色是以蹲低的姿勢站立,前後擺動臀部。有圖有真相,還有樂高版,不過這好像不用中文對應也好...XD

Read more: http://newsfeed.time.com/2013/08/28/dictionary-adds-badassery-selfie-and-twerk/#ixzz2dWtQdmEN

2013/08/29

「價值觀」與「價值體系」

「價值觀」與「價值體系」

價值觀」是人在判斷是非對錯、做抉擇時,內心取捨的標準。這些標準有的關乎道德觀,有的關乎思想(宗教、政治),有的關乎社會,有的與審美有關。基本上,價值觀可以視為一個人最核心的動機和基本信念:什麼是對的、什麼是錯的、什麼事情「該是」怎樣的。而這些信念,會進而影響一個人的態度與行為。

價值觀是一組抽象的想法,學者們為了對人的價值觀做更清確的描述和分析,常常會建立一套描述價值觀的體系:通常包含了一組固定的價值觀描述,以及相對應的測量方法。建立這樣的體系,是為了把不同的人,或是同一個人的不同狀態,放在同一個系統裡,以便於做比較和觀察。

這就好像我們定義出「經度」跟「緯度」,以便於描述任何物體在地球表面上的位置和移動一樣,經度和緯度組成的定位系統可能忽略了高度的資訊,但是總比「我的前面是山,後面有一條河;你的左手邊有一棵大松樹,右手邊是懸崖」更能讓人了解彼此之間的相對位置。


世界價值觀調查

常見的價值觀體系不少,像是 Rokeach 的 RVS,或是1981年由瑞典發起的 World Value Survey(WVS)。

其中,WVS 歷經了30年,將近100個國家的資料累積,儼然成為一個跨國比較的大型資料庫,舉凡政治傾向、社會制度、對快樂的定義、幸福指數等等,幾乎所有社會科學的領域都可以利用這個大型調查的結果。

台灣地區也參與過這項調查,是由中研院負責執行,所以也可以在中研院找到相關的研究成果和中文版的問卷。

WVS 收集了這麼多的資料,當然也定義出一個可以「把各國文化特色擺在一塊兒看」的經緯度座標:「理性─傳統」和「生存─自我表達」。

有趣的是,台灣地緣上屬於東北亞「儒家」傾向(Confucian)的國家,但是在 WVS 的經緯度上其實更接近東歐的前共產國家。

為了做測量和比較,任何的價值觀體系也都失去了若干「完整描述價值觀」的豐富度,這個倒是魚與熊掌,很難兼得的了。



2013/08/18

社群網站是不是讓我們更快樂?

現代人的閱讀方式是什麼?看來是越來越短的文字,和越來越多的影像。

黃锫堅在「微博微信的催眠術」中提到,微信微博上癮的人們,跟在賭場玩吃角子老虎機的人行為很像。他認為社群網站有讓人進入「心流」(flow)狀態的能力,才會令人樂此不疲。

相較於哲學家的浪漫想像,心理學家卻發現,年輕人臉書用得越多,就越不快樂

「不但每次造訪臉書之後快樂就下降,連生活滿意度都跟著降低。」作者建議,虛擬的社交,並不會跟真陣的人際互動一樣,提昇快樂的感覺。

研究是用簡訊每天問五次跟快樂、生活滿意相關的問題,並且對受試者的社交圈、臉書朋友數、自尊、寂寞感等等都做了控制。簡單的說,就是「蠻嚴謹的學術研究」(ScienceShot: Facebook Is Making You Sad)。

那麼,究竟是上臉書讓人不快樂,還是不快樂的人會勤上臉書呢?

這個問題似乎沒有答案。不過可以肯定的是,面對面的人際互動是會讓人更開心的,心情不佳的時候,不妨多跟朋友見面聊聊吧!



[摘譯]仿冒品的吸引力

[原文] The Attraction of Counterfeit Goods

仿冒品或許是假的,但是造成的經濟衝擊卻是真的。2012年,仿冒品市場已經成長到每個產業一年 6000億美金的規模。

最近一分研究探討了消費者為什麼會買仿冒品的原因。這個在摩洛哥進行的研究指出,絕大多數的消費者在做出購買決定之時,是有能力辨別真貨的:也就是說,他們是有意識的購買仿冒品。

除了價格之外,仿冒品的品質也是購買的關鍵因素之一。此外,健康的考量,和買了失望的風險,則是消費者不買仿冒品的主要理由。反倒是買賣仿冒品是否構成犯罪,對購買的決定沒什麼影響。

由於仿冒品多盛行於開發中市場,所以許多跨國企業也考慮開發廉價版的商品作為因應之道,但是仿冒商也都有很強的適應能力,甚至會想做跟他們所模仿對象一樣的創新。

(譯按:iPhone 要出低價版,山寨廠逐漸走向品牌,誰說不是「今日山寨,明日創新」呢?)

分享這瓶可樂,與我的____

內置圖片 2
七月走訪了一趟北京,恰好遇上大陸的可口可樂今夏的宣傳活動,「快樂暱稱瓶」。

活動其實很簡單,就是在瓶身標籤上印上「分享這瓶可樂,與我的____」,有20種以上的變化,就成了帶有一點遊戲化、社交化的行銷活動。


2013/07/15

從全景攝影到全息影像

Panorama全景圖)由來已久,從十八世紀的畫作就有這樣的概念。例如下圖,是 Robert Barker 在 1972 年畫的倫敦全景圖,還有中國宋朝的「清明上河圖」。






進入數位相機的時代,相機上都有「橫著連拍數張,然後連接成一個大橫幅照片」的「全景攝影」功能。顯示出我們多麼想要跟別人分享「我的視線所及的一切」。

概念和技術都不見得是新的,但是「使用情境」的創新並沒有停止。Sony 數位相機一直保有一個專利,是「按住快門然後旋轉身體,放開快門後,相機會自動生成全景照片」,其他廠牌相機都不能用,直到 Google 的 Android 4.0 內建了類似的功能,因為手機不用按住快門,而是改用偵測手機本身旋轉的角度,所以避開了 Sony 的專利限制。

內置圖片 1

全景不僅僅限於橫幅,也可以是 360 度立體的全景。第一個在網路上提供這種應用的其實是 MicroSoft(Photosynth),讓大眾上傳某個景點的照片,然後電腦會自動偵測每張照片的角度,結合眾人的照片組成該地點的立體全景。07 年的時候曾經有好幾個機構在進行這個「組合多種來源照片成為3D實境」的演算法開發,不過後來推出的 Google Streetview 把其他服務完全打敗了。

日前中興大學的團隊就提出新的「全景實景虛擬環球旅遊系統」,利用 Google 的街景資料庫來做虛擬的旅遊,雖然 Google Streetview 的資料庫還沒有到「全息影像」(Holography)的程度,但離真正的虛擬實境也已經不遠了。

2013/07/14

[摘譯] 受孕的最佳季節

原文:The Best Season to Get Pregnant

傳統上一直有這樣的說法:冬天出生的小孩身體比較差,而某幾個月出生的小孩比較健康。現在這個說法獲得了科學的證實,普林斯頓大學的經濟學家分析了大量的資料,結果刊登在最新的 Proceedings of the National Academy of Sciences. 上。

簡單的說,5 月受孕(冬天出生)的小孩,早產的機率高出13%,平均懷胎時間少一個星期以上,而早產與「低體重」還有其他健康問題息息相關,所以平均上也比較容易出現認知發展較遲緩、免疫力較差、視力不佳等問題。

那麼,什麼時候懷孕的小孩最健康?6~8月,想要生個健康寶寶的人加油啦!

2013/07/11

學校是做什麼用的?


筆者從小就對教育有很多意見,最近看到有人要翻譯 Seth Godin 的 Stop Stealing Dreams 這本小書,「學校是做什麼用的?」,就贊助翻譯了幾篇。

其實對 Seth Godin 的想法並不是 100% 贊成。從認知發展的觀點來看,「背誦」對一些基礎知識的建立還是很有意義的,創造力必須建立在某種程度的知識基礎上,才不會流於天馬行空的胡思亂想。

子曰:「學而不思則罔,思而不學則殆」。雖然不是說孔子講得就一定對,皮亞傑的認知發展理論也提出了調適(accommodation)與同化(assimilation)兩個過程對學習的重要性,至少可以說明學與思並重的想法是跨越時空的。

筆者自己是從相對強調背誦的領域開始,為了解答自己心中的疑惑,一步一步轉到電腦科學領域的,所以對「情境式的學習」、「自發式的學習」有深深的感觸,也對學校以「量產標準產品」的方式做教育相當不以為然。

不滿歸不滿,畢竟也不再是十幾歲的年紀了,歲月讓我了解到,其實台灣的教育不是制度的問題,而是文化的問題,所以,無論教改怎麼改,只是徒然造就更多的補習班和更沈重的升學壓力。因為這些現象是家長的「單一評估標準」、「怕輸給別人」這種心態的救贖,是青春期學子在發展自我認同時「怕跟別人不一樣」的解藥。

這些躲在文化底層的恐懼,不是在政策制度上「刻意模糊評估標準」就可以解決的。制定政策者不去治療恐懼的源頭,卻以為透過制度讓大家不知所措就可以造成「多元化」,也才造成今天教改的悲劇──習得的無助

文化的問題要靠文化活動來解決,所以,就從一本「不一樣的意見」的書開始也不錯。



2013/07/10

[Data Analytics] 市場區隔的新架構:以使用情境來區分顧客

原文:A New Framework for Customer Segmentation - Judy Bayer and Marie Taillard - Harvard Business Review
中譯:http://www.hbrtaiwan.com/blog_content_229.html

顧客區隔(customer segmentation)大抵算是市場研究(market research)裡用到稍微複雜一點分析技巧的部份,傳統上是把顧客的基本資料,像是性別、年齡、收入、居住地、態度偏好等等,用統計方法做分群(clustering)。

近年來,由於「使用者中心設計」(User-Centered Design)的思維大行其道,一些專家們也意識到傳統的作法由於出發觀點的不同,逐漸遇到瓶頸:
我們一方面跟人們提到區隔、鎖定和定位,一方面又談論掌控權逐漸從品牌轉移到消費者手上,而這兩件事之間的落差愈來愈大。顧客和學生愈來愈常質疑這點:我們一會兒主張區隔市場的嚴格方法,因為「我們不可能迎合所有人的需要」,但一會兒又宣揚樂高(Lego)和星巴克(Starbucks)等公司實施的共同創造(co-creation)理念,也就是和顧客展開對話、讓顧客更容易取得服務、分擔風險和主張透明度〔參閱普哈拉(Prahalad)和雷馬斯瓦米(Ramaswamy)合著的《消費者王朝》(The Future of Competition)〕。 
茱迪.貝耳和瑪麗.泰拉德 (Judy Bayer and Marie Taillard) 也緊接著提出了顧客分群的新架構,以下是參考的步驟:

  • 步驟#1:識別顧客使用公司產品的背景環境。在行動電信領域中,這類工作的例子可能包括:「漫遊時與親友聯絡」、「週末外出時選擇最佳娛樂和用餐機會」和「使用智慧型手機時變得更有信心和安心」。使用多種研究技巧的行動服務供應商可能會發現,顧客群裡尚待完成的工作有五十項或是更多,一個人通常會經由某個特定供應商或品牌來完成數項工作. 
  • 步驟#2:在背景環境中結合關於交易和顧客行為的資訊,以說明每項待辦的工作。 以週末的娛樂為例,我們會尋求以下的組合:週末搜尋娛樂資訊、搜尋地方餐廳、影評,以及關於電影、音樂會或餐廳的推文等社交行為。「變得更有信心和安心」的工作,可能會使用客服中心與顧客互動的資料,並且偵測新智慧型手機上未曾使用的功能。初步的研究,會基於待探索的背景環境和現有的資料,而選擇每一項「待辦工作」的實際相關資料。這與傳統的行為區隔迥然不同,傳統的行為區隔將焦點集中在各種個別變數上,例如語音通話的比例。在此,我們需要整體性的資料觀點,以找出某個背景環境的特徵。
  • 步幅#3:使用資料找出個別顧客與工作之間的關聯。根據每一項已完成工作與每位顧客的相關性,對他/她打分數。某位特定顧客可能需要20%的娛樂工作、2%的信心工作,和40%的接觸工作。顧客背景資料會散佈於所有的工作,一個簡單的步驟是,根據顧客的待辦工作組合,而非顧客的「原始」行為、人口統計資料或態度,將顧客集中起來。每個區隔裡面可能只有三、四項重要的待辦工作。這讓針對每個區隔的特定解決方案能夠發展。

如果讀者對市場分群已經有基本的概念,那麼這個新架構可以很單純的看成觀點的改變:傳統關注的是顧客的「客觀屬性」,而新的架構則是聚焦在「顧客怎樣使用我們的服務或產品」。這其實跟近年來產品與服務設計上「使用者中心導向」的趨勢,以及著重「使用者體驗」息息相關。

筆者覺得,相似的觀點轉變應該很快的會進入到其他顧客資料分析的應用上。



2013/07/07

如果「解決問題」不再是可賴以為生的能力


上個月是畢業季,專業社群網站 LinkedIn 特別彙整了許多今年美國各大學的畢業演說,放在 Class of 2013 這個主題之下。應邀到各大學演說的當然不乏產官學界的名人,許多演說的內容都相當發人深省,這裡有一篇是筆者覺得比較特別的:「解決問題不再是可賴以為生的能力」(Class of 2013: You Can’t Make a Living Just by Solving Problems | LinkedIn)。



演講者 Don PepperTeleTech 的合夥人,他提到:科技日新月異,人的工作可以被電腦取代的越來越多,由這個趨勢來看,在可以預見的將來,只要是有「標準作業程序」(SOP)的工作,都將被電腦取代,因此人類的優勢或者就業的價值將由「解決問題」移轉到「定義問題」,然後將問題交給電腦去解決。

Don 似乎並非科技狂熱者,但他經營的卻是「流程外包」的公司,所以不難想見,即使在電腦還不能解決這些問題之前,他的公司也可以幫企業找到更便宜的外包商,來執行這些標準化的作業流程。所以,他的建議也應該算是相當中肯。


我想到的,是台灣代工的宿命。製造或代工絕對有其專業之處,但是如果想要產業可以轉型,似乎也要慢慢往「定義問題」那一端前進,才有出路,即便是重新定義「代工」這個行業,也是新的契機。但是如果只是把某些執行步驟練得純熟,那麼終究難以避免被更便宜、更熟練的競爭者所取代。

至於要怎樣才能做到「定義問題」,我想除了思維上的轉變之外,理解市場的能力也是不容或缺的,不過這應該要另外討論了。


2013/06/25

[摘譯] 使用聲控系統會危害行車安全

[原文] Voice-Activated Systems Make Driving Less Safe - IEEE Spectrum

[摘譯]
許多新科技都聚焦在「如何讓駕駛人兩手放在方向盤上,眼睛看著車外的狀況」,近來許多行動應用也採用了相同的策略,讓駕駛人可以邊開車邊聽社群網路上的更新(Text-To-Speech, TTS, 語音合成),也可以用說的來回應社群的互動(Automated-Speech-Recognition, ASR, 語音辨識)。

一項新的研究,比較了開車時可以從事的各種活動(包含把車維持在車道上穩定的前進),所使用的認知資源,結果發現使用聲控事實上是危害行車安全的行為。

這個結果也引起了汽車工業的重視,因為可能會影響法規的制定。

2013/06/18

[摘譯] 家族與企業能不能水乳交融?

[原文] Why Family and Business Don't Mix? --- Freakonomics podcast

[摘譯]
「家庭」是人類最基本的社群結構,不同文化的「家庭連結程度」(Family Tie)不盡相同,對經濟發展也有著不同的影響。 Alberto AlesinaPaola Giuliano 最近的這篇論文比較了不同 "family tie" 與經濟發展的關係,發現:
  • 家庭連結度與社會上一般的「信任」程度成負相關
  • 家庭連結度高的國家:
    • 家計生產較高,婦女、年輕人、老人的勞動參與率較低
    • 對政治的興趣及參與度較低
    • 偏好以家庭為基礎的勞動規範與福利制度,而不喜歡市場機制與政府規範
    • 不利於有助企業快速成長的活動
    • 有助於壓力的紓解,家庭成員的支持與幸福感較高
  • 家庭連結度的持續性相當高,比福利制度或市場規範還要長久
[譯按]
研究裡「高家庭連結度」的代表是義大利,不過看看研究的結果,想想華人社會,好像也挺適切的。另外,文章裡用來定義「家庭連結程度」(Family Tie)指標的方法,恰好是前幾篇提過的主成分分析Principal Component Analysis, PCA),之後再來篇專文介紹好了。


2013/06/10

[摘譯]七分鐘科學健康操

[原文] The Scientific 7-Minute Workout

高強度、間歇性的鍛鍊,可以用比較少的時間達到強身健體的效果。建議每段運動持續30秒,間隔不要超過10秒,要有疲勞的感覺(滿分10分的痛苦指數要達到 8 以上)。

2013/05/30

[摘譯] 檢驗生活

[原文] The Examined Life - The Economist

[摘譯]
GDP 長久以來一直被批評過度強調「金錢」的重要性,三年前開始, OECD (Organisation for Economic Co-operation and Development) 每年公布「更好的生活」指數(Better Life Index),作為另一種觀點。

BLI 追蹤11個類別中的24項指標,有像是「就業率」這種容易量化的,也有像「公民參與度」這種抽象的概念。此外,OECD 並不公布各國的得分,只公布排名。

經濟學人依據其中的10項指標,重新計算了各國最高與最低 10% 人口的得分,結果跟傳統印象差異不大,跟GDP排名其實也差不多。

[譯按]
BLI 網站的視覺化做得很棒,可以上去自定個項指標的權重,還蠻好玩的。有了這個指標,就知道該移民去哪裡了 XD

2013/05/29

[Data Analytics] 結構主義與資料分析

標題跟附圖好像都有點哲學味道,但是其實想要談的是資料分析。

附圖是孫隆基老師的「中國文化的深層結構」,是快20年前好友送我的生日禮物。時光芢苒,人事沉浮,那麼多年過去了,書的具體內容其實早已遺忘,最近因著工作的關係,又拿出來重讀。

作者在書名上就明確的表達了寫這本書的目的:尋找華人文化裡屬於「深層」的,比較不變的一些共同特徵。

孫老師是歷史學家,這本書的內容,採取的是結構主義的方法。簡單的說,就是從同一個系統的眾多現象當中,找出不斷反覆出現的特徵,作為「深層結構」。

暫且不論書中所描述的發現,「在現象中尋找反覆出現的特徵」這件事,其實也是資料分析裡常見的課題。

探索式的資料分析(exploratory data analysis)一般是用來為觀察資料做摘要的分析工具,包含了很多不同的統計分析方法與視覺化技巧,讓我們可以看到資料表面以外的內容。

主成分分析」(Principal Component Analysis, PCA)是探索式資料分析裡常用的方法之一,可以幫我們找出所觀察到的現象裡的「異」最常發生的向度,而這些稱之為「主成分」的少數幾個向度,也就形成了所觀察到現象裡的所謂的「結構」。

探索式資料分析涵蓋的方法很多,於此無法一一解釋,但是「使用這套分析方法」的本身,其實已經揭示了一種結構主意與存在主義的哲學意涵:觀察記錄的「存在」可以反映出某種真實的「本質」,而透過對反覆出現現象的詮釋,可以推導出現象背後的結構。

不知道有沒有人把李維史陀的研究手稿拿來做量化分析的,很好奇這些資料會不會讓我們看到那些原住民部落的另一種文化結構?

2013/05/20

[摘譯] 快樂的債 - 經濟學裡的人


[原文]

The debt to pleasure - The Economist

[摘譯]

諾貝爾經濟學獎得主 Daniel McFadden 認為,經濟學家應該對「消費選擇」理論進行翻修,並修正大部分對人的假設。

「擁有帝王的品味,對風險有敏銳的覺察,勇往直前的追求快樂」是傳統經濟學家假設的「人」。然而人在做選擇時的歷程相當複雜,應該可以參考更多心理學與神經科學的想法,來修正消費選擇理論。

最基本的,經濟學假設人的偏好是固定不變的,然而許多心理學研究都告訴我們,選擇的偏好是不斷變動的。「擁有感」,「選擇時的環境」,「信任」,甚至「選擇的數量」,都會巨幅的改變我們做選擇時的偏好。

Daniel McFadden 的想法挑戰了很多經濟學的基本假設,例如「選擇越多越好」、「透過觀察可以了解一個人的選擇偏好」等等,這些想法會讓經濟學變得更混亂,不過真實的世界難道不混亂嗎?


[譯按]

經濟學裡對人的假設有時候看起來不太合常理,有過於簡化、理想化的傾向,不亞於物理學對於現實世界的假設。(oops~ XD)

簡化的好處,在於可以更容易抓住抽象、高層次的概念,而越抽象的概念,在類推到其他現象時所受的限制越小,可以讓人對整個問題的大方向有比較宏觀的掌握。至於簡化的壞處很簡單,就是經過重重假設之後,問題的狀況已經和現實問題脫節,所以推導出來的結論也不容易直接應用到實際情況上。

經濟學家固然可以修正對人的假設,讓經濟學在處理人的問題上更具實用性,但是同時也會喪失一些過度理想化的好處。

2013/05/16

情境感知應用實作架構

之前寫過一些「情境感知」(Context Aware)應用的相關介紹(12),其實相關的研究相當多,從系統整合、其中元件的技術,到理論架構都有,也有不少中文的論述(例如資策會的介紹,以及許多的學術論文)。

日前有朋友問到實作方面的問題,所以把過去的一些經驗稍作整理。

基本上,設計一個情境感知的的服務或應用,首先要定義哪些情境需要被感知。這其實是個難度很高的問題,關係到整個服務或應用所提供的價值,屬於「戰略」的層次。要解答這個問題,「使用者中心設計」(user-centered design)的領域有很多不錯的方法可以參考,不過不在這篇文章討論的範圍。

一旦決定了要感知的情境,該如何設計這個機制呢?

以程式開發的觀點,對情境的感知可以視為一個「事件處理機制」(event handling),就像「擊點滑鼠右鍵」、「誤觸筆電的觸控板」,系統要能知道這件事情的發生,並且採取對應的措施。

一個情境被感知到之後,該採取什麼動作(event handler),同樣屬於「為使用者提供價值」的問題,所以這裡我們暫時聚焦在實作「事件聽取機制」(event listener)的基本原則。

要判斷一個事件是不是發生,可以透過幾種方是式處理。一是透過分析找出規則(rule-based),另一種是收集大量的資料讓機器自己學習規則(machine learning),當然實作上更常見的是兩者的混合(hybrid)。

以下是從前的工作筆記,只是基本原則,不見得適用於所有的狀況。

    - EventHandler: Void, do whatever necessary for the context
    - EventListener: Boolean, determine the context is happening or not
      - rule-based:
        - design by hands of experts
      - ML based:
        1. Set up a sensor recording interface
        2. Simulate the context to aware of
        3. Collect sensor data stream, and label each record with "in-context" and "not-in-context"
        4. Train a statistical model for the above data (collected in 3)
        5. Use the trained model as the decision rules in EventListener
      - Hybrid:
        - combining ML with some heuristic rules
  - Fine tuning with usability test


筆者一邊寫這篇,一邊在看 Google I/O 2013 的現場直播,發現新的 Android 已經把 activity recognition 的功能放入系統中,也就是說:android 系統本身就提供了幾種「行動狀態的感知」(靜止,行走,騎自行車,或是開車),開發者不需要再自己設計這幾種情境的事件聽取機制,只要直接呼叫系統功能即可。簡單的說,這篇相當程度是白寫了,真是好樣的, Google!

2013/05/13

[摘譯]博士論文該寫多長?

原文:http://beckmw.wordpress.com/2013/04/15/how-long-is-the-average-dissertation/

作者分析了 2007年 2,536 名完成博士論文的紀錄,分析所有論文的頁數(最短21頁,最長2002頁),平均長度為 177 頁。(譯按:不知道含不含圖表跟附錄?)




月份,是九月開學前最多。





前四名生產最多博士的領域:教育行政、電機、教育心理、心理學。









產生最多博士前50名的學門,博士論文長度的方塊圖。經濟學、數學、生物統計學的論文最短,人類學、歷史、政治的論文最長。




[譯按]

整體來說,結果跟 common sense 沒有差很多:跟數字有關的長度短,跟論述有關的頁數多。八月跟十二月是新學期開始前,所以這段時間遞交論文的人也最多。

其實,大多數的分析也不外如是:告訴我們一些我們已經知道的事情。

2013/05/09

無所不在的智慧生活


這裡記錄的是筆者自己最近的一點粗淺心得,。如果把科技發展的趨勢分成「裝置」跟「服務」兩個部分,目前主要的發展方向是「無所不在」(ubiquitous) 和「情境感知」(context-aware)。

在裝置方面,科技產品會以「無孔不入」的方式融入人們的生活,近期熱門的「穿戴式電腦」(Google 的眼鏡、Apple 及各家科技大廠的手錶、衣服... 等等)屬於個人裝置,而再擴展到生活環境裡,則是智慧環境、智慧生活的生態系。實際的使用情境,可以參考康寧 2012 年推出的 the future of life 系列,IBM 的 SmartPlanet 系列,或是 Microsoft / Intel 的 Intelligent systems

在服務上,科技產品提供的將會是更「個人化」的服務,而呈現的方式會是透過「情境感知」。科技產品會整合使用者身邊收集到的各種資訊,來預測使用者的習性和意圖,並且針對該意圖提供相對應的資訊或服務。目前可以看到的雛形產品有 Google Now,未來的目標則是跟智慧環境、智慧生活的生態系結合。

為了達到「無所不在」(ubiquitous)與「情境感知」(context-awared),使用者所使用的操作介面也會隨之演進,朝向「自然操作介面」(Natural User Interface, NUI)發展。目前已經應用愛產品上的有「觸控」、「語音」、「手勢」、「眼動」等等,而「思考控制」也已經有一些測試原型,然而無論如何,終極的目標還是「讓使用者不必學習,依賴直覺即可使用」。

作為前面幾個趨勢的一個實例,我們可以看看日本的「超人衣」:HAL (Hybrid Assistive Limb) 或 Honda 的 Robotic Legs,屬於穿戴式的裝置,會自動判斷使用者肢體動作的意圖,提供運動出力的輔助,使用者只需要穿上,然後隨意用動即可。因為是作為特殊用途的應用,所以比日常應用早一步實現。

這些裝置跟服務所要帶給人們的,基本上是一種「無所不在的智慧生活」:計算裝置和人工智能深入到生活之中,讓人的生活更加便利。然而,這個願景並不全然是那麼美好的。首先,無所不在的計算裝置,會給人的隱私帶來很大的威脅;其次,人的環境越聰明,人即使不變笨,智力的活動減少,過度依賴看不見的機器,也未必見得是好事。不過在這些問題嚴重到威脅人的幸福生活之前,這些趨勢大概是不會停止的。


2013/04/29

智慧家庭服務的幾個面向

智慧家庭(Smart Home, Smart House, Digital Home...etc.)嚴格說來是個重炒了很多次的冷飯,每隔幾年就會被重新提出來討論,當然每個年代有不同的技術成熟程度,智慧家庭的焦點也有所不同。

最近「智慧家庭」乃至於「智慧都市」又被拿出來討論,是伴隨著「物聯網」(Internet of Things, IoT)與「巨量資料」(Big Data)的議題,這兩個新的技術議題,讓智慧型的居家生活看起來又更有希望實現了一些。

這篇文章不打算細數這個話題過去發展的歷史,只是想簡短的點出長久以來各家服務供應商對這個議題觀注的幾個面向:

  • 家庭娛樂(Home Entertainment)
  • 家庭自動化(Home Automation)
  • 家庭保全(Home Security)
  • 健康看護(Home Healthcare)
  • 居家能源管理(Home Energy Management)
過去台灣對這個議題的發展,比較聚焦在「家庭娛樂」(影音串流、播放)這方面,但是過往幾年綠色能源的發展與無線通訊技術的突破,也讓其他議題逐漸的受到重視:像是中興保全就由「保全」的角度切入,進而提供健康看護和部分自動化的服務;台電和中華電信共同推動智慧電錶的計畫,也已經有初步可行的建築能源管理的方案;而健康看護,更是幾個大型醫療集團與科技大廠攜手角逐的下一個戰場。

如果從商業模式創新的角度,也可以先考慮這五個面向,了解目前市場檯面上與檯面下的玩家動態,進而找出沒有被滿足的需求點,其實還有不少新的遊戲可以玩。

2013/04/15

[Data Analytics] 巨量資料的能與不能

微軟的主任研究員 Kate Crawford 日前寫了一篇「巨量資料裡潛藏的偏差」(The Hidden Biases in Big Data),算是對 Big Data 抱以過度期待的一種反思。

「大量資料」是個抽象的觀念,也在媒體的鼓吹之下背負了過多的期望,讓人誤以為「只要資料的量夠大,資料就能自己說話」。
很遺憾的,資料是不會說話的。資料甚至不是客觀的,而是人類設計之下的產物。我們為數字發聲,從中產生推論,為了我們的主觀詮釋而去定義資料的意義。無論是資料的收集或分析,我們都早已在當中預藏了偏頗,而這些偏頗帶來的風險,在「巨量資料」這個主題上,事實上跟「資料」本身一樣重要。
 Crawford 以 Hurricane Sandy 和 Google Flu Trends 為例,佐證前述的問題。事實上,資料並不總是反映了社會現實,甚至還常常有很大的差距。在前述的兩個例子當中,即便收集資料的方式不斷推陳出新,也還是無法解決一些「收集不到需要的資料」跟「錯誤詮釋」的問題。

理解當前的限制,也可能是新突破的開端。Crawford 建議資料科學可以借鏡社會科學的方法學,因為這個領域自古就面對了這些問題。事實上這個建議和 DJ Patil 的建議相當類似,他認為物理學或社會科學訓練出身的人比資訊背景的更適合擔任資料科學家的工作(參見「如何打造資料科學團隊」一文)。處理現實問題,需要對問題的情境有足夠的理解(awareness of context),而不只是對資料本身進行複雜的分析。

總之,巨量資料在資料處理及分析技術的進步上,讓我們有機會看到更深的結構以及做更精準的預測,但是要應用在任何現實問題上,依然需要對問題的背景情境有夠深入的理解,才能「問對問題」,然後做出有意義的解答。簡單的說,巨量資料不能讓資料自己說話,但是能讓人用它來說出更好的故事。

2013/04/11

[Data Analytics] 資料分析的哲學基礎

年輕的時候喜歡附庸風雅,讀了很多哲學書。高中時本來也打算將來讀文學或哲學的,一直到讀了史蒂芬.霍金的「時間簡史」,看來看去一直讀不懂,意識到「科學」,或者至少物理學這一門,我是需要人帶入門的,才決定轉念自然組,理想科系也由哲學換成心理學。

雖然換了組別,亂讀書的習慣還是留了下來,大學時也跟幾個「偽文青」朋友按圖索驥的照著哲學史慢慢的讀著,討論著。

讀了這些東西,和後來的專業其實沒什麼直接的關係,但是不能否認的是,往後在討論比較抽象層次的議題時,這些知識在我腦海裡形成的地圖,可以讓我比較快定出自己所在的位置,跟應該前進的方向。

但這倒也不是全無壞處的。人如果真的思路一路跟著當代哲學走,從結構主義的各家觀點,走到解構主義或是後現代,那基本上就很難再回頭了,至少對我自己來說是這樣的:太習慣去解構人家提出的每個觀點,一方面會人緣不好,另外一方面也就不容易再去堅決的相信些什麼。

這也是後來選擇工程研發作為職業, "it is not what I claimed, but what I did, that defines me" 成為自我介紹,部落格標題還用了 esse ("存在"的拉丁文,不是德文的"吃")的主要原因。套用現在流行的用語,這也就是 "be data-driven"了。

這個冗長的開場白,到目前為止好像也只稍稍擦到題目的邊,無非是為了增加一點寫這篇文章的正當性。這裡不打算細說各家哲學理論,哲學史上重要的著作很多,即使只算我讀過的,也是很難一語道盡,更不用說相關的名家論述汗牛充棟,也輪不到我多嘴。

跟資料分析比較有關係的,應該是當代哲學跟科學哲學的部分,芬蘭一位教授 Jyväskylän yliopiston Koppa 的 Philosophy of Science  網站上倒是有不錯的摘要,去圖上點一點,可以快速的看到各派論點的摘要。

各家哲學的觀點,主要在詮釋「事實」(facts,實際發生的,可以被觀察到的事件)與「真實」(reality,真相,表象背後的深層真理)之間的關係。科學的各學門絕大部分都是以「事實」作為基礎的,所以除了走純理論的科學家之外,data-driven 算是共同的基礎,但是「資料驅動」可以驅動到什麼程度,就可以看出各個學派的差異了。

圖中靠外邊的那些理論,大多是認為「真實並不存在」、「不想討論真實的存在」或「真實即使存在,也難以用任何客觀的方式達到」的,所以 data-driven 可以比較不受限制;比較核心那些的觀點,就比較依賴人主觀形成理論來指引資料的詮釋。

在實務上,資料驅動的方法真的可以形成「知識」嗎?就筆者本身知道的,目前大概只有 Google 訓練電腦自己形成「貓」的概念,算是接近成功的例子,不過動用 16,000 個處理器去分析一千萬幅影像,不見得是一般人可以負擔的資源。其他大部分的資料分析應用,還是先由理論架構作為導引,比較能產生應用的價值。

目前只談到「資料分析」的整體,其實不同的分析方法背後也有其哲學意涵,那就以後再說吧。

2013/03/31

[摘譯]麥肯錫 2013Q1 全球經濟剪影

原文Economic Conditions Snapshot, March 2013: McKinsey Global Survey results

[譯按] 
此報告為定期針對全球企業高階經理人進行的調查,主要詢問對經濟情況的信心程度,預期可能發生的風險等等。
[摘要]
  • 未來三年風險最高的因素:低消費需求(42%),政治衝突(38%),缺乏政策的支持(37%) 
  • 儘管抱持高度不確定性,經理人對未來半年景氣平均較上一季樂觀,尤其是已開發亞洲國家為最。 
  • 歐元區對未來景氣的態度較其他地區來得保守,預期會發生經濟突發事件或債務危機的比例較其他地區經理人來得高。 

長期展望

在區域成長上,經理人最擔心的依序是:國內政治衝突,低度的創新,政府干預,以及人才流失。

以地區看,北美最擔心政治衝突,已開發亞洲最擔心需求不振(擔心工作機會流失到低薪資地區的比例由上一季的60%降到33%),印度最擔心政府支持不足,歐元區最擔心創新程度下降。開發中經濟體最擔心政治緊張與創新動能不足。

最後,是經理人們對幾個可能發生的情境的評估: